Autor: Roberto Muñoz
E-mail: rmunoz@uc.cl
R es un lenguaje de programación estadístico que fue desarrollado por los investigadores Ross Ihaka y Robert Gentleman en la Universidad de Auckland (Nueva Zelanda). Se puede descargar gratuitamente desde internet e instalar en cualquier computador. En este curso usaremos el pack R-essentials distribuido por Anaconda.
Lo primero que haremos será en configurar el sistema para usar UTF-8 como formato de codificación de caracteres. Esto es importante a la hora de usar acentos o caractéres especiales en R.
In [1]:
Sys.setlocale("LC_ALL", 'en_US.UTF-8')
sessionInfo()
In [2]:
a = 2
b = 3.5
In [3]:
c = a + b
paste("suma de a + b = ",c)
d = a * b
paste("multiplicación de a * b = ",d)
e = a ** b
# el signo "**" representa "elevar a"
paste("a elevado a b = ",e)
f = b / a
paste("b dividido por a = ",f)
In [4]:
library(help = "datasets")
Para este tutorial cargaremos el dataset llamado iris, el cual contiene información del tamaño de los pétalos y sépalos de un conjunto de flores iris.
In [5]:
library(datasets)
data(iris)
iris
La librería dplyr de R facilita la manipulación de los datos mediante funciones previamente definidas. Algunas operaciones que facilita son filtrar filas, seleccionar ciertas columnas, reordenar las filasy de acuerdo a cierto criterio y entregar resúmenes de los datos.
Más info en este link https://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html
In [6]:
names(iris) <- tolower(names(iris))
library(dplyr)
In [7]:
iris
In [8]:
head(iris)
In [9]:
columns=ncol(iris)
rows=nrow(iris)
message("Columns=",columns)
message("Rows=",rows)
In [10]:
summary(iris)
In [11]:
iris %>%
group_by(species) %>%
summarise(sepal.width.avg = mean(sepal.width)) %>%
arrange(sepal.width.avg)
In [12]:
virginica <- filter(iris, species == "virginica")
head(virginica) # This dispalys the first six rows
In [13]:
virginica %>%
summarise(sepal.width.avg = mean(sepal.width))
In [18]:
plot(iris, main="Dataset Iris")
In [19]:
plot(iris[,1], col="red")
In [20]:
hist(iris$sepal.width)
In [21]:
library(ggplot2)
In [22]:
ggplot(data=iris, aes(x=sepal.length, y=sepal.width, color=species)) + geom_point(size=3)
In [23]:
ggplot(data=iris, aes(sepal.width)) + geom_histogram(bins = 10)
In [ ]: